STATISTIQUE
Cours

4. Intervalle de confiance d'un pourcentage

Prenons l'exemple d'un institut de sondage donnant une première approximation du résultat le soir du deuxième tour d'une élection présidentielle au scrutin majoritaire. L'objectif de l'enquête est d'estimer le pourcentage (p) ou le nombre (np) de personnes ayant voté pour le candidat A et le le pourcentage (q=1-p) ou le nombre (nq) de personnes ayant voté pour le candidat B dans la population. Cette population sera parfaitement définie lors du résultat final de l'élection quand tous les bulletins auront été dépouillés. En attendant, il est possible de prélever une infime partie de cette population et de comptabiliser les résultats (on obtient alors les pourcentages po et qo, estimateurs des pourcentages de la population). On est souvent surpris par la bonne précision du sondage. Ceci vient du fait que le travail statistique est réalisé sur des bulletins réels (et donc sur la vraie population). Autrement dit, le risque de biais lors de l'échantillonnage est relativement faible.

Ceci n'est pas le cas lors de sondages réalisés plusieurs jours avant l'élection ; l'échantillon de sondés est alors issue d'une population virtuelle, constituée d'intentions de votes plutôt que des bulletins. Dans ce type de sondage, il faudra d'abord réfléchir à la question que l'on pose aux personnes sondées de façon à ce qu'elle ne contienne pas d'éléments subjectifs qui pourrait influencer la réponse.

Ensuite, il s'agit d'obtenir un échantillon le plus représentatif de la population en pensant aux biais possibles lors des différentes étapes du sondage :

  1. au moment on l'on détermine les sujets qui formeront l'échantillon :

    • âge, sexe, origine géographique, milieux socio-professionnels, etc...

    • technique utilisée pour obtenir la réponse (téléphone, mailing, question posée dans la rue...)

  2. au moment où l'on recueille l'information .

    Même si on a désigné les sujets par tirage au sort, avec des critères corrects, la représentativité peut être perdue par les sujets qui ne répondent pas, soit qu'ils ne veulent pas, soit qu'il ne peuvent pas. On peut noter que la volonté de ne pas répondre peut être liée à la formulation de la question posée. Un des problèmes de l'institut de sondage va être d'analyser la nature de ces non réponses et de savoir si cela peut avoir des conséquences dans le résultat du sondage.

    En effet, les personnes qui ne répondent pas au sondage peuvent le faire car elles ont décidé de s'abstenir lors de l'élection ou bien ce sont des votant potentiels qui ne veulent (ou ne peuvent) répondre à la question du sondage. Ces deux catégories de personnes, d'un point de vue statistique, représentent 2 population distinctes. Les votants potentiels appartiennent à la population que cherche à analyser l'institut de sondage tandis que les abstentionnistes sont une autre population définissant un nouveau caractère qualitatif dont on peut également estimer le pourcentage. On peut se demander si les intentions de vote sont les mêmes chez les votants ayant répondu au sondage et chez les votants qui n'ont pas répondu (groupe comprenant peut-être les indécis).

  3. il est important également de conserver la représentativité de l'échantillon lorsque celui-ci est suivi au cours du temps.

    La constitution et le maintien de la représentativité d'un échantillon n'est donc pas chose facile surtout si la population est virtuelle, comme c'est le cas dans notre exemple ; ceci explique bien souvent la différence de qualité entre l' « estimation de 20 heures » et l'estimation donnée par un quotidien plusieurs jours avant l'élection.

Sur le plan technique, l'estimation d'un pourcentage est basée sur la distribution binomiale des pourcentages pour des échantillons de taille n avec un risque  donné. Les tables de la loi binomiale donnent l'intervalle de confiance d'un pourcentage. (Voir annexe Tables) On constate que la précision du sondage est d'autant meilleure que la taille de l'échantillon est grande. Pour une valeur de 52 %, un échantillon de 1000 personnes et un risque de 5%, l'intervalle de confiance du pourcentage est environ [ 49% ; 55%].. Cet intervalle signifie qu'il y a 95 % de chance que la vraie valeur de la population appartienne à cet intervalle. Dans 5 % des cas, les fluctuations d'échantillonnage peuvent faire que la vraie valeur de la population soit extérieure à l'intervalle défini.

Une autre façon de calculer l'intervalle de confiance d'un pourcentage est d'utiliser la propriété que la loi binômiale peut être approximée par la loi Normale quand certaines condition sont vérifiées. Si le pourcentage observé dans l'échantillon est p0, on calculera l'intervalle de confiance à partir de la formule suivante :

Cet intervalle peut être ensuite écrit [pi ; ps] où pi et ps représentent les bornes inférieures et supérieures de l'intervalle de confiance.

On vérifiera alors que les effectifs absolus npi, nps, nqi, nqs, sont tous supérieurs à 5. Si cette condition n'était pas vérifiée, il faudrait utiliser les tables de la loi binomiale.

AccueilImprimerRéalisé avec SCENARI3. Intervalle de confiance d'une moyenne (page Précédente)Tests statistiques (page suivante)